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摘 要 : 针对 英文 句子 压缩 方法 进行 研究 ， 提 出 一 种 基于 “ 
(encoder-decoder) 框架 下 ， 以 循环 门 单元 (Gated Recurrent Unit, 
义 进 行 两 次 建 模 。 首 次 建 模 结果 作为 全 局 信息 ， 加 强 二 次 语义 建 模 ， 得 到 更 全 面 准确 的 语义 编码 向 量 。 解 码 阶 段 充分 
考虑 删除 式 句 子 压缩 的 特殊 性 ， 适 用 简单 注意 力 (3t-Attention) 机 制 ， 将 编码 向 量 中 与 当前 解码 时 刻 最 相关 的 语义 部 
分 输入 到 解码 器 中 ， 提 高 预测 效率 及 准确 率 。 在 谷歌 新 闻 匈 子 压 缩 数 据 集 上 的 实验 结果 表明 ， 所 提 压 缩 方法 优 于 已 有 


预 读 ” 及 简单 注意 力 机 制 的 压缩 方法 。 在 编码 器 -解码 器 
GRU) 神经 网 络 模 型 为 基础 ， 在 编码 阶段 对 原 句 语 


公开 结果 。 因 此 ,“ 预 读 ” 及 简单 注意 力 机 制 可 有 效 提高 英文 句子 压缩 精度 。 
关键 词 : 自然 语言 处 理 ; 句子 压缩 ; 预 读 ; 注意 力 机 制 
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Abstract: This paper proposed a method in English sentence compression based on Pre-readin” and Simple Attention 
Mechanism. On the basis of Gated Recurrent Unit (GRU) and Encoder-Decoder, this paper modeled the original sentence 
semantics twice in the encoding stage. The first result was used as a global information to strengthen the second semantic model, 
thus obtaining a more comprehensive and accurate semantic vector. With full consideration of the particularity of the deleted 
sentence compression, this paper simply adopt the 3t-Attention mechanism in the decoding stage to improve the efficiency and 
accuracy of prediction, which means that the semantic vectors most relevant to the current decoding time step are inputted to 
the decoder. The results from the experiments on the Google news sentence compression dataset show that our model 
significantly outperforms all the recent state-of-the-art methods. Therefore, "Pre-reading" and Simple Attention Mechanism can 
effectively improve the accuracy of English sentence compression. 
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法 、 语 义 连贯 的 精简 句 ， 以 便 读者 快速 掌握 文本 要 义 。 该 技术 


aa 广泛 用 于 主题 自动 提取 、 搞 要 自动 生成 、 网 络 信息 搜索 、 网 络 

随 着 网 络 信息 数量 的 飞速 增长 ， 人 们 希望 精简 信息 以 节约 “舆情 监控 、 推 荐 系统 、 问 答 系统 和 情感 分 析 等 技术 中 。 
阅读 时 间 。 近 年 来 ， 自 然 语 言 处 理 技术 的 飞速 发 展 ， 使 计算 机 传统 句子 压缩 方法 通过 最 小 化 语法 错误 比例 或 修剪 名 
逐渐 参与 至 该 项 工作 ， 句 子 压 缩 即 是 其 中 重要 技术 。 名 子 压缩 “法 树 司 等 得 到 压缩 句子 ， 严 重 依 赖 人 工 设计 的 规则 特征 ， 对 专 
又 称 句子 约 简 凸 ， 旨 在 通过 算法 处 理 ， 模 拟人 类 文本 概括 和 信 家 知识 要 求 较 高 ， 且 耗费 大 量 的 人 力 物 力 。 而 深度 学 习 强 大 的 
息 提 取 能 力 ， 去 除 见 余 信息 ， 保 留 核 心 内 容 ， 自 动 生成 合乎 语 。 表示 能 力 ， 为 句子 压缩 带 来 新 的 技术 思路 。 深 度 学 习 算法 完全 
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RA RRB, $: 一 种 基于 “ 预 读 ” 及 简单 注意 力 机 制 的 句子 压缩 方法 


数据 驱动 ， 自 动 提取 特征 ， 可 极 大 减轻 人 力 物力 负担 。 在 各 。” 析 05'191、 图 像 标 题 生成 0715 等 。 但 在 实际 训练 中 ,常规 循环 神 
类 深度 学 习 范 式 中 ， 句 子 压 缩 属 于 典型 的 序列 预测 任务 器 ， 即 经 网 络 存在 梯度 爆炸 和 梯度 消失 问题 09， 对 长 文本 表示 效果 不 
输入 原名 序列， 预测 输出 压缩 名 序列。 该 类 任务 ， 通 常 基于 编 佳 , 其 两 种 改进 模型 长 短 时 记忆 (long short-term memory, 
码 器 -解码 器 框架 解决 , 编码 器 将 输入 句子 序列 编码 为 稠密 向 量 ， LSTM) P29 网 络 和 循环 门 单 元 〈gated recurrent unit, GRU) PH 
此 向 量 包 含 原 句 语义 信息 ， 解 码 器 解码 此 向 量 生成 原 句 中 各 词 网 络 应 运 而 生 。 而 Chung 等 人 [2 研究 表明 ，LSTM 与 GRU 在 
的 保留 或 删除 决策 。Fillippova 等 人 WI 采用 类 似 策 略 ， 首 次 将 深 ”序列 建 模 任务 上 表现 相当 ， 均 通过 “ 门 ” 机 制 将 重要 特征 保留 ， 
度 学 习 模 型 适用 于 句子 压缩 任务 ， 其 使 用 3 层 单 向 长 短 时 记忆 ”保证 其 在 长 距离 传播 的 时 不 被 丢弃 但 由 于 GRU 没有 单独 存 
(Long-Short Term Memory, LSTM) 网 络 堆栈 作为 编码 器 -解码 ” 储 单 元 ， 参 数 较 LSTM 少 ， 当 数据 量 较 大 时 ， 在 收敛 速度 和 和 迭 
器 组 件 , 在 大 规模 数据 集 上 获得 优 于 传统 压缩 系统 的 结果 。Tran ” 代 次 数 上 更 胜 一 筹 。 综合 考虑 , 本 文选 用 GRU 作为 基础 模型 。 
等 人 [8 对 Fillippova 等 人 的 模型 结构 进行 改进 , 提出 一 种 基于 注 GRU 通过 更 新 门 (update gate) 和 重 置 门 (reset gate) 的 控制 ， 自 适 
意 力 机 制 (attention mechansim ) 的 双向 LSTM 模型 用 于 句子 压 应 解决 RNN 模型 训练 中 的 长 程 依赖 问题 ,其 结构 如 图 1 所 示 。 
缩 ， 且 在 小 数据 集 上 取得 较 好 结果 。 此 外 ，Sigrid 等 人 将 眼睛 
跟踪 信息 Ceye-tracking information) 纳入 句子 压缩 系统 ， 多 任 
务 预测 , 实现 更 高 的 准确 性 , 与 Filippova 等 人 工作 相似 , 他 们 
同样 使 用 了 三 层 单 向 LSTM 编码 器 -解码 器 架构 。 
但 当前 相关 研究 仍 存在 以 下 两 点 不 足 。 一 是 大 部 分 模型 设 
计 过 于 简单 ， 无 法 将 原名 语义 充分 编码 进 语义 向 量 〈 尤 其 在 输 
入 序列 较 长 情况 下 )， 致 使 语义 信息 丢失 严重 ， 无 法 准确 解码 。 
二 是 常规 注意 力 机 制 计算 复杂 度 高 ， 注 意 力 信息 刻画 不 直观 ， 


出 


aur 


起 


图 1 GRU 单元 结构 


在 句子 压缩 任务 上 适用 性 不 强 。 

针对 以 上 问题 ， 本 文 提出 类 似 人 类 压缩 句子 行为 的 “ 预 读 ” 人体 工作 原理 为 
机 制 ， 实 现 更 精确 句子 压缩 。 首 先 通读 原 句 ， 概 略 掌握 全 和 句 要 Ze = OW, x, + Urhei + b4) (1) 
义 ， 但 此 时 仅 可 对 句 中 部 分 词语 作出 正确 的 保留 或 删除 决策 ; re = o(Wzxį + Ushi_i + b2) (2) 
再 次 逐 词 阅读 ， 利 用 通读 获得 的 整体 信息 调整 完善 决策 ， 保 留 h, = tanh(Waxe + U3 (r: hi1) + b3) (3) 
重要 单词 。“ 预 读 ” 机 制 与 该 过 程 类 似 ， 两 次 输入 原 句 序列 ， hi = (1-2) oħti + Ze oh 4) 


使 用 首次 获得 的 整体 语义 信息 局 部 增强 第 二 次 语义 表示 ， 加 大 AP: z 表示 更 新 门 ，r 表示 重 置 门 ，x 为 输入 层 ， 为 隐藏 
需 保 留 词语 语义 权重 ， 减 小 元 余 词 语 语义 影响 ， 获 取 更 加 全 面 Z, A 为 中 间 状 态 ， 与 h 对 应 。 重 置 门 + 决定 是 否 舍弃 之 前 
准确 的 语义 编码 向 量 ， 从 而 为 解码 打下 良好 基础 。 同 时 ， 在 扣 状态 , 即 当 7 趋 于 0 时 , 前 一 时 刻 的 隐藏 层 状态 信息 hy 被 
子 压 缩 任 务 输入 输出 序列 严格 对 齐 情况 下 ， 聚 焦 与 输出 序列 各 忽略， 中 间 状 态 h 被 重 置 为 当前 输入 信息 。 更 新 门 z 决定 是 
时 刻 预 测 紧密 相关 的 原 句 中 对 应 时 刻 的 隐藏 层 状态 ， 兼 顾 左 右 和 否 要 将 当前 时 刻 隐 藏 层 状态 更 新 为 新 的 中 间 状 态 h ， 即 当 z 
最 近邻 词 对 当前 词 删除 或 保留 决策 的 较 大 影响 ， 采 用 更 加 科学 F1 时 , 前 一 时 刻 的 隐藏 层 状态 信息 hea 被 忽略 ， 当 前 时 


简单 的 3t-Attention 机 制 ， 提 升 解码 效率 及 准确 率 。 本 文 的 主要 ” 刻 隐藏 层 状态 被 置 为 中 间 状 态 h。 更 新 门 和 重 置 门 共同 决定 当 
贡献 如 下 : 前 隐藏 层 输出 。U、 W 和 2 均 为 模型 参数 矩阵 ，@ 表示 对 应 元 
a) 首次 在 句子 压缩 任务 上 创建 使 用 * 预 读 ” 机 制 ， 获 取 更 加 RAR. 
全 面 准 确 的 语义 编码 向 量 ; 1.2 双向 GRU 模型 
b) 针对 句子 压缩 任务 ， 提 出 适用 更 加 科学 简单 的 3t- 无 论 是 RNN、LSTM, 还 是 GRU, 均 只 编码 利用 单 向 语义 
Attention 机 制 ， 降 低 计 算 复 杂 度 ， 提 高 解码 效率 及 准确 率 ; 信息 。 进一步， 对 于 时 刻 t， 其 隐藏 层 输 出 仅 包含 t 时 刻 之 前 
c ) 在 多 种 模型 基础 上 进行 了 大 量 对 比 实验 ， 实 验 结果 对 ”的 信息 , 即 上 文 信息 ,而 下 文 信息 对 整个 语义 的 刻画 同样 重要 。 
模型 及 超 参数 选择 具有 一 定 指导 意义 。 为 更 好 表示 整体 上 下 文 信息 ， 基 于 已 被 成 功 应 用 的 双向 RNN 
(Bidirectional RNN，BiRNN) 模型 23129， 提 出 使 用 双向 GRU 


1 ”预备 知识 


(Bidirectional GRU, BiGRU) 模型 。 该 模型 可 利用 历史 和 将 来 


1.1 GRU 模型 的 所 有 可 用 输入 信息 进行 训练 ， 获 得 更 加 全 面 准 确 的 语义 向 量 
循环 神经 网 络 00 (recurrent neural network, RNN) 是 常规 。 表示 。 

前 馈 神 经 网 络 (feedforward neural network, FNN) 的 扩展 ， 该 模型 与 GRU 相 比 ，BiGRU 使 用 两 个 单独 的 隐藏 层 双 向 读 取 输 

允许 层 内 之 间 的 连接 和 定向 循环 的 出 现 ， 能 够 处 理 可 变 长 度 输 A 正 向 和 反 向 。 正 向 以 原始 顺序 〈1 到 了) 读 取 输入 ， 反 向 


入 序列 外， 广泛 应 用 于 机 器 翻译 导 、 自 动 问答 WV 岁 、 语 法 解 ”按照 相反 顺序 (7 到 1) 读 取 输 入 。 时 刻 t 的 两 个 隐藏 层 状态 


201805.00290v1 


chinaXiv 


RAG 
A 

hi = GRU(xp, hi1) (5) 

hi = GRU(x;, hi1) (6) 

BiGRU 的 初始 状态 置 为 全 零 向 量 ， 即 ho =0, hry =0。 

根据 式 (1)~(4)， 可 计算 得 到 正 向 隐藏 层 状态 (i, ho, ..., hp AUR 
向 隐藏 层 状态 (hhh, .…, hr)， 后 通过 级 联 方 式 综合 表示 语义 

h; = [hs hy] 0) 

从 而 ， 隐 藏 层 状态 h 同时 含 上 下 文 信息 ， 可 有 效 提高 模 


输出 均 为 单词 序列 ”转换 为 "输入 为 单 
问题 。 如 下 例 所 示 : 


词 序 列 、 输 出 为 0/1 序列 ” 


输入 句 : A woman from Lycoming County has been charged with 
theft from her place of work. 


压缩 句 ，A woman has been charged with theft. 


输 出 : 1,1, 0, 0,0, 1,1, 1,1, 1,0, 0,0, 0,0, 1 


AS MEF Sutskever AVE HY ANY Ae 7 BU FP i) yÈ Ach EEZ i] 


型 在 较 长 序列 上 的 记忆 表现 。 题 ， 基 本 思想 即 采用 端 到 端 策略 训练 模型 ， 使 输入 句子 对 应 正 

1.3 基于 双向 GRU 模型 的 编码 器 -解码 器 框架 确 输出 的 概率 最 大 。 有 具体 而 言 ， 对 于 每 个 训练 样本 (X,Y)， 通 
编码 器 -解码 器 框架 是 自然 语言 处 理 问 题解 决 方案 的 新 范 过 随机 梯度 下 降 法 〈Stochastic Gradient Descent, SGD) 求解 以 

式 ， 且 被 广泛 用 来 解决 序列 到 序列 (Sequence to sequence, 下 优化 问题 ， 学 习 模型 参数 OH 

seq2seq ) 预测 问题 [9 ， 如 机 器 翻译 525] 26127], A 动 文摘 P8IP29130] 等 。 6* = arg max Èxy logp(Y|X; 0) (15) 

基于 双向 GRU 模型 的 编码 器 -解码 器 框架 受 RNN 编码 器 -解码 总 和 为 所 有 训练 样本 预测 损失 的 加 和 。 使 用 链 式 法 则 对 概 

器 的 启发 ， 第 一 部 分 使 用 双向 GRU 模型 对 输入 句子 序列 进行 X p 建 模 ， 得 到 

编码 ， 生 成 一 个 固定 长 度 的 稠密 编码 向 量 ， 该 向 量 包含 输入 名 p(Y1X; 9) = Thea pO ..., Ye-1 X; 0) (16) 

子 序 列 语 义 信 息 。 第 二 部 分 使 用 GRU 模型 对 编码 向 量 进行 解 此 处 无 任何 独立 性 假设 。 得 到 最 优 参数 9* 后 ， 即 可 估计 

码 ， 逐 个 预测 句 中 单词 的 标签 。 因 此 ， 上 下 文 表示 《语义 编码 ”压缩 结果 为 


向 量 ) 
键 。 
1.4 ”基于 注意 力 机 制 的 GRU 模型 


是 编码 器 -解码 器 框架 下 句子 压缩 任务 得 以 有 效 解决 


的 关 


Bahdanau 等 人 BH 提出, 在 解码 产生 
意 力 机 制 ,动态 利 | 
实现 源 词 与 目标 词语 义 对 齐 , 可 有 效 提 升 模型 预测 精度 ,此 
注意 力 机 制 广泛 应 用 于 学 习 各 种 模式 之 间 的 对 齐 ， 如 语音 
任务 中 语音 帧 和 文本 对 齐 63， 图 像 标题 生成 任务 中 图 像 与 
RY FUE 
基于 注意 力 机 制 的 GRU 解码 器 工作 原理 如 下 : 

Zt =o(Wixt + Uiht 1 + Vice + bi 


每 个 单词 时 ， 可 使 | 


Te = O(W 2x 十 Uzhe_-1 + Voce + b>» 
hy = tanh(Waxe + Us(re © ht-1) + Vace + ba) 
hy = (1-21) Q hħt-1 + Zhe 


3 YE 


j 输 入 序列 中 与 各 时 刻 解 码 相关 的 具体 部 分 ， 


后 ’ 
识别 


文本 


(8) 

(9) 
(10) 
(11) 


其 中 : ct 是 基于 注意 力 机 制 的 上 下 文 表 示 , 根据 源 词 与 
对 齐 结果 动态 生成 , V 是 上 下 文 信 
人 5 将 所 有 编码 阶段 隐藏 层 状态 的 加 权 和 作为 t 时 刻 的 
文 表 示 ， 即 


Ct = Dja Qtj hi 
权重 atj 计 算 如 下 : 
rej = = ve tanh(W,hy_1 + U, he) 
atj = softmax (rij) 


本 文 称 该 种 表示 方法 为 常规 注意 力 机 制 。 
2 ”本 文 模型 


本 文 提 出 的 方法 属于 删除 式 句子 压缩 范畴 ， 即 保留 村 
词 , 删除 元 余 单 
标签 问题 ，0 代表 删除 ，1 代表 保留 。 进 


pan 


步 ， 该 任务 由 


息 的 权重 矩阵 。Bahdananu 等 


标 词 


Y=arg max logp(¥ |X; 0°) 
2.1 “ 预 读 "机 制 

对 人 类 来 说 ， 如 不 “ 预 读 ” 输 入 句 ， 即 在 不 掌握 例句 信息 情 
况 下 ， 将 很 难得 到 一 个 词语 或 一 句 话 的 正确 表示 ， 继 而 影响 句 
子 压缩 准确 率 。 同 样 ， 各 类 循环 神经 网 络 虽 在 序列 建 模 方面 表 
AS, 但 t 时 刻 的 隐藏 层 状态 仅 依赖 于 历史 信息 ， 且 双向 模 
型 下 双向 隐藏 层 状态 之 间 缺 乏 直 接 互 动 ， 势 必 导 致 压缩 效果 不 
佳 。 

本 文 “ 预 读 ” 机 制 背后 思想 十 分 直观 , 一 般 人 类 压缩 句子 时 ， 
首先 通读 原 句 ， 即 文中 所 指 “ 预 读 "， 经 “ 预 读 ” 后 ， 获 得 整 句 语 
义 ， 在 此 基础 上 ， 再 次 读 取 原 句 ， 对 各 词 逐一 作出 删除 或 保 
决策 。 对 计算 机 而 言 ， 该 过 程 的 实现 流程 为 ， 将 原 句 输入 神经 
网 络 ， 学 习 得 到 句子 的 稠密 分 布 式 表示 ， 即 语义 向 量 ， 该 语义 
可 量 用 于 衡量 原 句 中 词语 重要 性 ， 获 得 原 句 中 各 词语 义 权重 ; 


(17) 


tt 


上 下 


(12) 


(13) 
(14) 


要 单 


词 。 该 过 程 可 表示 为 为 原 句 中 每 个 单词 标注 0/1 
“输入 


将 原 句 再 次 输入 神经 网 络 ， 使 用 首次 语义 建 模 权重 对 语义 特征 
进行 再 提取 , 突出 高 信息 量词 的 语义 贡献 ,削弱 非 保 留 词 影响 ， 
实现 语义 表达 更 具 侧重 ， 服 务 任务 目标 。 
其 概 略 流程 如 图 2 所 示 。 
seed Re-weight wy 
| oi fu [ 
A Encoder1 A Encoder2 Decoder ha 
H g ] o i GRU 5 
| 
Re-weight -eee 


图 2 “ 预 读 "机制 流程 图 


以 正 向 “ 预 读 ” 为 例 ( 反 向 “ 预 读 ” 可 同 理 推广 ), 假设 输入 序 
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列 为 (x1,xz,.…,Xxr)， 使 用 标准 GRU 首次 读 取 输入 序列 ， 
hi = GRU*(x,,ht_,) (18) 


其 中 , GRU! EWRO A RAE TAP EE hp 后 ， 
计算 权重 向 量 w， 该 向 量 辅助 语义 二 次 建 模 。 甚 具体 工作 原理 


如 图 2(b) 所 示 。 若 当 前 单词 x， 对 应 权重 w， 趋 近 于 0, 则 二 次 
编码 时 对 应 隐藏 层 状态 2 所 携带 的 信息 几乎 全 部 来 自 于 上 
一 时 刻 的 隐藏 层 状态 及 1， 而 忽略 当前 输入 词 x, 的 影响 ; 若 
权重 a, 接近 于 1， 则 该 结构 与 标准 GRU 相似 , 仅 受 当前 词 的 
影响 。 二 次 建 模 规则 为 
h? = (1-4) @ AZ, +a; @GRU*(x,A24) (19) 
其 中 a, 计算 如 下 : 
ar = o(Whi + UA} + Vx) (20) 
矩阵 W, U 和 V 是 模型 参数 , o 是 Sigmoid 函数 。w 是 
一 个 权重 向 量 ， 与 隐藏 层 状态 维度 相同 ， 代 表 隐 藏 层 状态 每 一 
维 的 重要 程度 。 此 处 使 用 向 量 而 非 数 值 ， 究 其 原因 是 隐藏 层 状 
态 不 同 维度 代表 不 同 的 语义 语法 特征 ， 单 值 权 重 无 法 捕捉 各 维 
信息 及 重要 程度 变化 。 
将 公式 中 GRU? (x, h21) 进 


步 展 开 : 

GRU? (x, h21) = (1-2?) ght, +2? oh? (21) 
将 上 式 代 入 (19) 得 
RE = (1-a) ohh + Org (lz) oR +z? ght) 
(22) 


简化 : 


2.2 nt-Attention 模型 
2.2.1 基于 t-Attention 的 GRU 模型 
常规 注意 力 机 制 计算 复杂 度 高 ， 注 意 力 信息 重复 元 余 。 在 
删除 式 句 子 压缩 任务 中 ， 由 于 是 将 句子 序列 转换 为 0/1 序列 ， 
因此 ， 输 入 序列 与 输出 序列 等 长 且 严格 对 齐 ， 该 模式 下 采用 常 
见 注 意 力 机 制 的 必要 性 不 大 。Tran 等 人 加 提出 ， 将 编码 阶段 各 
时 刻 隐藏 层 状态 hE 直接 作为 解码 器 端 对 应 时 刻 的 注意 力 信 
息 ， 即 只 考虑 与 被 预测 词 最 相关 的 上 下 文 信息 ， 而 非 关 注 句 子 


Rass 


ChinaX ives “F HAT I| 


| 
读 ” 及 简单 注意 力 机 制 的 句子 压缩 方法 


但 本 文 认为 ， 最 近邻 词 对 当前 词 的 删除 及 保留 决策 影响 较 
大 , 因此 ,考虑 将 t-Attention 扩展 ,通过 2t-Attention,3t-Attention, 
增强 注意 力 语义 信息 ， 降 低 决 策 错 误 率 。 
2.2.2 基于 2t-Attention 的 GRU 模型 

以 正 向 2t-Attention 为 例 ， 预 测 单词 x, 的 标签 时 ， 使 用 编 
码 阶段 xea 和 x, 对 应 的 隐藏 层 状态 组 合作 为 上 下 文 语义 表 
示 输 入 解码 器 ， 


he = f er Yea [AE AED) (25) 
Hp: [het he) 表示 编码 阶段 t-1 和 上 时 刻 隐 藏 层 状态 的 级 
联 。 
类 似 ， 反 向 2t-Attention 可 表示 为 
he = fp Yt- hg, htt (26) 
2.2.3 基于 3t-Attention 的 双向 GRU 模型 
为 综合 考虑 最 近邻 词 对 当前 词 的 影响 , 2t-Attention 进 
步 扩 展 为 3t-Attention， 即 
he = fOr Yt- [Ae ht hg, hgt) (27) 
LR AR FA OE) 3 所 示 。 输 出 层 为 Softmax 分 类 器 ， 预 测 对 
应 单词 或 符号 的 标签 ， 输 出 一 个 3 维 独 热 (one-hot) 向 量 : 若 
保留 , 向 量 第 一 维 为 1, 代表 标签 1; EWR, 向 量 第 二 维 为 1， 
代表 标签 0; 若 为 句 末 结束 字符 ,向 量 第 三 维 为 1， 指示 解码 预 
测 开始 。 


图 3 基于 3t-Attention 的 双向 GRU 模型 


3 ”数据 与 实验 


3.1 数据 与 预 处 理 

深度 学 习 模 型 包含 大 量 参数 ， 其 训练 需要 充足 数据 。 针 对 
句子 压缩 平行 数据 匮乏 问题 ，Filippova 等 人 喇 提 出 一 种 自动 生 
成 句子 压缩 数据 集 的 新 方法 , 构造 了 大 量 来 自 谷歌 新 闻 (Google 
newswire ) 的 “原名 -压缩 句 ? 对 .本 文 基于 其 公开 的 4 万 对 数据 


所 有 组 成 部 分 ， 从 而 有 效 去 除 元 余 信 息 。 
hy = f (Xt, yey h) (24) 


1 http://www.nltk.org/ 


进行 实验 与 对 比 实 验 。 数 据 集 划 分 为 3 部 分 ， 其 中 36000 对 作 
为 训练 集 ，2000 对 作为 验证 集 ， 剩 余 2000 对 作为 测试 集 。 
实验 前 ， 对 数据 进行 预 处 理 。 使 用 NLTK! 分 词 工 具 对 原 句 
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进行 分 词 ， 然 后 借助 word2vecB3] 模 型 进行 预 训练 ， 获 得 97 维 


词 向 量 。 经 验 说 
型 效果 优 于 随机 初始 化 ， 
选取 前 8000 个 高 频 词 组 成 训练 词 表 ， 超 出 词 表 
统一 由 “unk”(unknown) 表示 。 在 每 个 句子 结尾 ， 添 加 


FE， 预 训练 不 仅 能 加 速 训 


大 | 


练 过 程 ， 且 训练 所 得 模 
此 本 文 实验 均 在 预 训练 基础 上 实施 。 
的 单词 或 字符 


一 个 特 


殊 符号 “eos”(end of sentence )， 作 为 解码 启动 指示 。 基 于 以 上 


处 理 ， 构 造 标 ; 


全 标签 序列 ， 对 句子 中 每 个 单词 进行 单独 标记 ， 


若 单词 被 保留 ， 标 注 为 1; 
“eos”， 标 注 为 2。 


3.2 ”实验 设置 


实验 中 ， 编 码 器 和 解码 器 端的 隐藏 


里 ， AAS 


输入 为 100 维 应 


段 为 前 一 个 单词 标准 标签 ( 
的 独 热 向 量 表示 。 
根 


EN 0.9. KI 


若 单词 被 删除 ， 标 注 为 0， 若 单词 是 


单元 数 设 


为 100. 


=] 
Es 


i 中 前 97 维 为 当前 输入 单词 的 向 量 表 示 。 
后 3 维 在 编码 和 解码 阶段 不 同 ， 编 码 阶 


段 为 全 零 向 量 ， 解 码 阶 
期 间 ) 或 预测 标签 (测试 期 间 》 


训练 


据 Greff 等 人 B11 关 于 参数 设 定 研究 经 验 ， 结 合 本 文 数据 
E, 将 学 习 率 初始 化 为 0.001， 每 1000 个 训练 步 的 衰减 率 B51 设 
提前 结束 Cearly-stop) 策略 B51， 即 当 验证 集 的 FF1 


分 数 不 增 加 达 5 轮 后 ， 系 统 结束 训练 ， 进 一 步 防止 过 拟 合 。 具 


体 模型 


4 参数 设置 如 表 1 所 示 。 


表 1 模型 参数 设置 
参数 设 定 值 ”实验 范围 
最 大 句子 长 120 120 
词 表 大 小 8000 16000 
词 向 量 维度 97 100,150,200 
隐藏 层 大 小 100 100,150,200 
最 大 轮 数 50 50 
比 大 小 1000 1000,2000 
退出 率 0.7 0.7 
学 习 率 0.001 0.001 
衰减 率 0.9 0.9 


选用 Theano? 作为 本 文 实验 基础 框架 ， 其 他 环境 配置 Intel 
corei7 处 理 器 , 16GB 内 存 , 64 位 Ubuntu 16.04 LTS 操作 系统 。 


于 模型 


3.3 ”实验 结果 


与 Tran 等 人 [9 工作 一 致 ， 本 文 使 用 
WA Acc) 两 个 指标 进行 评估 ，Acc 指 完全 再 现 


accuracy {H (fäi 


fy 


| 练 过程 中 计算 量 较 大 ， 为 提高 训练 效率 ， 在 此 基础 


的 压缩 句子 所 占 比 例 。 基 了 


上 额外 增加 一 块 GTX 1070 GPU 加 速 卡 。 


F1 分数 和 per-sentence 


F 以 上 设置 ， 从 基准 模型 、 注 意 力 范 


有 和 有 无 “ 预 读 ” 机 制 等 多 个 角度 进行 大 量 对 比 实验 ， 并 考察 了 
部 分 超 参数 影响 ， 系 统 给 出 了 有 关 结 论 。 


为 便于 表述 ， 对 模型 构成 作 以 下 规定 ，“F” 表 示 正 向 ,，“B” 
FEAR CIB), “Bi” 表 示 双 向 ,“R” 表 示 “ 预 读 ”, “tA” RZ t-Attention, 


2 http://deeplearning.net/software/theano/ 


Be 


8%, 


五 


Tl “BiR-3tA” Bll ÆR AU [Al FH 3t-Attention” EH. 
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表 2 基准 模型 
模型 Fl Acc 
3LSTM" 0.7445 0.225 
BiLSTM-tA! 0.7681 0.315 
BiGRU-tA 0.7682 0.314 
K 2 对 比 了 各 种 基准 模型 ， 第 一 行 和 第 二 行 分 别 为 
Fillippova 等 人 中 和 Tran 等 人 多 提出 的 模型 。 结 果 表 明 ,， 在 现 有 
数据 集 上 ，BiLSTM-tA 与 BiGRU-tA 模型 均 可 取得 较 3LSTM 
模型 更 好 结果 ， 且 效果 相当 ， 凸 显 出 双向 模型 及 注意 力 机 制 对 
文本 语义 建 模 的 提升 作用 。 下 面 以 BiGRU-tA 为 基础 模型 ,是 
绕 注 意 力 范围 与 有 无 “ 预 读 " 机 制 两 个 方面 ， 逐 步 增加 模型 复杂 
度 ， 对 各 种 组 合 模 型 进行 研究 分 析 。 
表 3 注意 力 范 转 
模型 F1 Acc 
BiGRU-tA 0.7683 0.314 
BiGRU-F2tA 0.7721 0.316 
BiGRU-B2tA 0.7745 0.317 
BiGRU-3tA 0.7786 0.320 
表 3 在 无 “ 预 读 ” 机 制 情况 下 ， 对 比 注意 力 范围 对 实验 结果 


的 影响 。 


文 表示 作为 注意 力 信息 
联合 上 下 文 表示 作为 注意 力 信息 ， 且 后 者 效果 
论 与 文献 名 结论 一 致 ， 即 倒序 输入 较 了 


Par. 4 
» BT 


其 中 ， 第 二 行 表示 将 当前 词 及 其 前 一 个 词 的 联合 上 下 
了 表示 将 当前 词 及 其 后 一 个 词 的 
优 于 前 者 ， 该 结 
E 序 输入 解码 准确 率 会 有 


所 提高 。 该 表 结 果 显 示 ， 附 加 最 近邻 词语 义 表 示 模 型 效果 均 优 


于 BiGRU-tA 模型 ， 且 同时 考虑 前 后 最 近邻 词语 义 表示 
Attention 模型 取得 最 好 


词 的 
S BRN 


HIER De RENEE 


效果 。 可 以 看 
在 扩大 注意 


的 3t- 
出 ， 左 右 最 近邻 词 对 当前 
力 范围 的 同时 ， 本 文 考 察 


0 和 两 种 刻画 


联 效 果 优 于 加 和 。 


表 4 在 3t-Attention 模型 基础 上 , 对 比 


上 下 文 语义 信息 的 方式 ， 结 果 表 明 ， 级 


表 4 有 无 及 单 双向 “ 预 读 "机制 
模型 Fl Acc 
BiGRU-3tA 0.7786 0.320 
FR-3tA 0.7822 0.322 
BR-3tA 0.7861 0.327 
BiR-3tA 0.7936 0.329 


无 “ 预 读 ”及 单 双向 


“ 预 读 ” 机 制 对 实验 结果 的 影响 。 从 表 中 可 以 看 出 ， 带 有 “ 预 读 ” 


机 制 的 模 
于 前 向 “ 预 
0.7936。 


型 效果 好 于 无 “ 预 读 "机 制 模 型 ， 且 后 向 “ 预 读 "模型 好 


读 ” 模 型 ， 双 向 “ 预 读 ” 模 型 取得 最 好 结果 ，F1 值 高 达 


Chinax X ive 一 HFI] 
录用 稿 Bese, F: 一 种 基于 “ 预 读 ” shina VR, 


此 外 ， 进 一 步 对 部 分 超 参数 进行 调 优 ， 如 词 向 量 维度 、 隐 (0.7936. 下 一 步 , 采用 生成 式 模型 , 研究 直接 生成 压缩 句子 的 方 
藏 单 元 数 和 词 表 大 小 等 。 如 表 5 所 示 ， 在 当前 数据 量 下 ,适当 ”法 。 


增 大 词 向 量 维 度 和 隐藏 层 单元 数 ， 模 型 效果 会 有 所 提升 ， 而 词 i 
表 大 小 对 实验 结果 影响 较 小 。 


输入 句子 : Gubernatorial candidate Abbott calls for greater privacy 


KS 部 分 超 参数 影响 protections, legalizing open carry. 

模型 ” 词 向 量 维度 隐藏 单元 数 词 表 大 小 Fl Acc 标准 压缩 ， Abbott calls for greater privacy protections. 
100 100 8000 0.7936 0.329 3LSTM: candidate Abbott calls for privacy protections. 
150 100 8000 0.7954 0.331 BiLSTM-tA: candidate Abbott calls for greater privacy protections. 

: 200 100 8000 0.7966 0.330 BiR-3tA; Abbott calls for greater privacy protections. 

Roe 100 150 8000 0.7945 0.329 输入 句子 : Fun and food are two ways to help Children's Hospital of 

100 200 8000 0.7982 0.332 Illinois during the month of July. 
100 100 16000 0.7935 0.329 标准 压缩 : Fun and food are two ways to help Children's Hospital. 


3LSTM: Fun and food are ways to help Children's Hospital. 


综 上 , 在 句子 压缩 任务 中 , GRU 模型 可 代替 LSTM 模型 ， 
“ 预 读 ”机制 能 较 好 提升 模型 文本 建 模 能 力 ， 同 时 ， 融 合 左右 最 
近邻 词语 义 表 示 的 注意 力 机 制 简单 有 效 。“ 预 读 ” 机 制 在 双向 
GRU 模型 基础 上 ， 通 过 两 次 语义 建 模 ， 模 拟人 类 阅读 行为 ， 利 
用 全 局 信息 进行 局 部 调整 ， 增 大 高 信息 量词 在 语义 表示 中 的 权 
重 ， 可 提高 压缩 精度 。 简 单 注意 力 机 制 利用 当前 词 的 直接 上 下 
文 表示 ， 并 附加 左右 最 近邻 词语 义 ， 忽 略 元 余 信 息 ， 避 免 模型 
受到 语法 错误 影响 ， 可 提高 压缩 效率 和 精度 。 此 外 ， 模 型 中 超 
参数 的 选择 影响 其 性 能 表现 ， 但 具有 一 定 的 经 验 BiLSTM-tA: Eurozone business activity slowed, coming off a 27-month 
3.4 示例 分 析 人 

表 6 显示 了 不 同 模型 下 句子 压缩 情况 。 可 以 看 出 ， 本 文 提 
出 的 BiR-3tA 模型 在 大 多 数 情况 下 ， 压 缩 内 容 完 整 丰 富 ， 语 法 
正确 合理 。 使 用 短 输入 句 进行 测试 时 《前 两 个 )， 三 个 模型 均 可 
得 到 正确 压缩 : 压缩 长 名 时 ， 本 文 模型 优 于 其 他 压缩 系统 。 

其 中 3LSTM 模型 表现 较 差 , 究 其 原因 , 该 模型 包含 约 100 
万 个 参数 ， 使 用 当前 训练 数据 集 (36000 个 句子 对 ), 不 足以 将 
参数 调整 至 最 优 。 而 本 文 提出 的 模型 ， 参 数 较 少 ， 在 强化 文本 
语义 建 模 基础 上 ， 能 够 高 效 捕捉 数据 分 布 规律 ， 提 取 频 繁 出 现 
特征 ， 即 关键 语义 、 语 法 等 信息 ， 融 合 简单 注意 力 机 制 ， 聚 焦 


BiLSTM-tA: Fun and food are two ways to help Children's Hospital. 


BiR-3tA: Fun and food are two ways to help Children's Hospital. 


输入 句子 : Eurozone business activity slowed in October, coming off a 


27-month high in September to highlight concerns the economy is 


recovering only slowly from recession, a survey showed on Thursday. 


标准 压缩 : Eurozone business activity slowed. 


3LSTM: Eurozone business activity slowed, coming off a high in 


September economy is recovering slowly. 


nF 


o 


BiR-3tA: Eurozone business activity slowed. 


输入 句子 : Eka Software Solutions, the fast growing global provider of 


end-to-end commodity management software, today announced that 


GrainCorp has gone live in Australia on Eka's commodity management 


platform, as the rst stage of a global implementation. 


at 


标准 压缩 : GrainCorp has gone live on Eka's commodity management 


platform. 


3LSTM: GrainCorp has gone live in Australia. 


BiLSTM-tA: GrainCorp has gone live on platform. 


与 当前 词 紧密 相关 的 上 下 文 影响 信息 ,采用 端 到 端的 联合 训练 ， BiR-3tA; GrainCorp has gone live on Eka's commodity management 
自 适 应 学 习 句 子 压缩 决策 因子 ， 为 输入 文本 中 的 每 个 单词 分 配 platform. 
个 有 意义 的 权重 ， 容 出 重要 的 动词 和 名 词 ， 而 忽略 常用 的 单 
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词 ， 如 介词 等 ， 实 现 更 精准 压缩 。 参考 文献 ; 
4 ”结束 语 

1] 陈 劲 光 , 何 婷 婷 , BSS. 基于 概率 和 句法 分 析 的 中 文句 子 修剪 [C]// 

本 文 针 对 英文 句子 压缩 任务 ， 提 出 re 第 五 届 全 国 青年 计算 语言 学 研讨 会 论文 集 , 2010. 

注意 力 机 制 的 压缩 方法 , 在 编码 器 -解码 器 框架 下 对 原 句 语 2] Jing H. Sentence reduction for automatic text summarization [C]// Proc of 
行 两 次 建 模 ， 首 次 建 模 结果 作为 全 局 信息 ， 1 A Applied Natural Language Processing Conference. 2000: 310-315. 
果 , 获取 更 加 全 面 准确 的 语义 特征 ， 并 利用 简单 3t-Attention 机 3] 景 秀丽 ， 郑 学 伟 . 基于 Noisy-Channel Model 的 句子 压缩 方法 [J]. 电大 
制 ， 聚 焦 编 码 阶段 与 当前 解码 时 刻 最 相关 的 上 下 文 信息 ， 附 加 理工 , 2005 (2): 39-41. 
左右 最 近邻 词语 义 影响 ， 忽 略 元 余 信 息 ， 在 简化 计算 基础 上 ， 4] Clarke J, Lapata M. Global inference for sentence compression: An integer 
提高 解码 预测 准确 率 .在 未 使 用 任何 人 工 设计 特征 的 情况 下 , 本 linear programming approach [J]. Journal of Artificial Intelligence Research, 
文 提 出 的 模型 在 谷歌 新 闻 压 缩 数 据 集 上 表现 突出 ，F1l 值 高 达 2008, 31: 399-429. 


录用 稿 


[5] Filippova K, Altun Y. Overcoming the lack of parallel data in sentence 
compression [C]// Proc of EMNLP. 2013: 1481-1491. 

[6] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural 
networks [C]// Advances in Neural Information Processing Systems. 2014: 
3104-3112. 

[7] Filippova K, Alfonseca E, Colmenares C A, et al. Sentence compression by 
deletion with LSTMs [C]// Proc of Conference on Empirical Methods in 
Natural Language Processing. 2015: 360-368. 

[8] Tran N T, Luong V T, Nguyen N LT, et al. Effective attention-based neural 
architectures for sentence compression with bidirectional long short-term 
memory [C]// Proc of the 7th Symposium on Information and 
Communication Technology. New York: ACM Press, 2016: 123-130. 

9] Klerke S, Goldberg Y, Søgaard A. Improving sentence compression by 
learning to predict gaze [J]. arXiv preprint arXiv: 1604. 03357, 2016. 

10] Mikolov T, Karafiat M, Burget L, et al. Recurrent neural network based 

language model [C]// Proc of Interspeech. 2010, 2: 3. 

11] Luong MT Pham H, Manning C D. Effective approaches to attention-based 

neural machine translation [J]. arXiv preprint arXiv: 1508. 04025, 2015. 

12] Ling W, Trancoso I, Dyer C, et al. Character-based neural machine 

translation [J]. arXiv preprint arXiv: 1511. 04586, 2015. 

13] Wang S, Jiang J. Machine comprehension using match-lstm and answer 

pointer [J]. arXiv preprint arXiv: 1608. 07905, 2016. 

14] Trischler A, Ye Z, Yuan X, et al. A parallel-hierarchical model for machine 

comprehension on sparse data [J]. arXiv preprint arXiv: 1603. 08884, 2016. 

15] Legrand J, Collobert R. Joint RNN-based greedy parsing and word 

composition [J]. arXiv preprint arXiv: 1412. 7028, 2014. 

16] Vinyals O, Kaiser L, Koo T, et al. Grammar as a foreign language [C]// 


Advances in Neural Information Processing Systems. 2015: 2773-2781. 


17] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption 
generator [C]// Proc of IEEE Conference on Computer Vision and Pattern 
Recognition. 2015: 3156-3164. 

[18] Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption 
generation with visual attention [C]// Proc of International Conference on 
Machine Learning. 2015: 2048-2057. 

[19] Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with 
gradient descent is difficult [J]. IEEE Trans on Neural Networks, 1994, 5 (2): 
157-166. 

[20] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural 
Computation, 1997, 9 (8): 1735-1780. 

[21] Cho K, Van Merriénboer B, Bahdanau D, et al. On the properties of neural 


machine translation: Encoder-decoder approaches [J]. arXiv preprint arXiv: 


Chi S - 
ake, #: tar me aay N abate ae 
1409. 1259, 2014. 

[22] Chung J, Gulcehre C, Cho K H, et al. Empirical evaluation of gated recurrent 
neural networks on sequence modeling [J]. arXiv preprint arXiv: 1412. 3555, 
2014. 

[23] Schuster M, Paliwal K K. Bidirectional recurrent neural networks [J]. IEEE 
Trans on Signal Processing, 1997, 45 (11): 2673-2681. 

[24] Graves A, Jaitly N, Mohamed A. Hybrid speech recognition with deep 
bidirectional LSTM [C]// Proc of IEEE Workshop on Automatic Speech 
Recognition and Understanding. 2013: 273-278. 

[25] Cho K, Van Merriénboer B, Gulcehre C, et al. Learning phrase 
representations using RNN encoder-decoder for statistical machine 
translation [J]. arXiv preprint arXiv: 1406. 1078, 2014. 

[26] Luong M T, Pham H, Manning C D. Effective approaches to attention-based 
neural machine translation [J]. arXiv preprint arXiv: 1508. 04025, 2015. 

[27] Cohn T, Hoang C D V, Vymolova E, et al. Incorporating structural alignment 
biases into an attentional neural translation model [J]. arXiv preprint arXiv: 
1601. 01085, 2016. 

[28] Rush A M, Chopra S, Weston J. A neural attention model for abstractive 
sentence summarization [J]. arXiv preprint arXiv: 1509. 00685, 2015. 

[29] Hu B, Chen Q, Zhu F. Lests: A large scale chinese short text summarization 
dataset [J]. arXiv preprint arXiv: 1506. 05865, 2015. 

[30] Nallapati R, Zhou B, Gulcehre C, et al. Abstractive text summarization using 
sequence-to-sequence Inns and beyond [J]. arXiv preprint arXiv: 1602. 
06023, 2016. 

[31] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly 
learning to align and translate [J]. arXiv preprint arXiv: 1409. 0473, 2014. 

[32] Chorowski J, Bahdanau D, Cho K, et al. End-to-end continuous speech 
recognition using attention-based recurrent NN: first results [J]. arXiv 
preprint arXiv: 1412. 1602, 2014. 

[33] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words 
and phrases and their compositionality [C]// Advances in Neural Information 
Processing Systems. 2013: 3111-3119. 

[34] Greff K, Srivastava R K, Koutník J, et al. LSTM: a search space odyssey [J]. 
IEEE Trans on Neural Networks and Learning Systems, 2016. 

[35] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to 
prevent neural networks from overfitting [J]. Journal of Machine Learning 
Research, 2014, 15 (1): 1929-1958. 

[36] Raskutti G, Wainwright M J, Yu B. Early stopping and non-parametric 
regression: an optimal data-dependent stopping rule [J]. Journal of Machine 


Learning Research, 2014, 15 (1): 335-366. 


